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Bo 勇 '!， 哈 力 旦 ， 阿布 都 热 依 木 '， 丁 维 超 ? 


(1. 新 疆 大 学 电气 工程 学 院 ， 乌 鲁 木 齐 830047; 2. 东南 大 学 苏州 研究 院 , 江苏 苏州 215028) 


摘 要 : 针对 自然 场景 中 维吾尔 文 检测 难度 大 的 问题 ， 改 进 了 一 种 单 深 层 神 经 网 络 对 自然 场景 中 维吾尔 文 进行 检测 。 
该 网 络 结构 由 维吾尔 文 特 征 提取 组 件 和 多 层 特 征 融合 的 文本 检测 组 件 组 成 ， 以 端 到 端的 方式 训练 学 习 预 测 维吾尔 文 文 
本 框 的 位 置 以 及 置信 度 。 维 吾 尔 文 特征 提取 组 件 利用 卷 积 神经 网 络 提取 自然 场景 维吾尔 文 图 像 中 的 多 尺度 和 多 层级 维 
吾 尔 文 特征 。 多 层 特 征 融 合 的 文本 检测 组 件 则 使 用 维吾尔 文 特征 提取 组 件 提取 的 特征 ， 预 测 文 本 框 的 位 置 和 维吾尔 文 
类 别 的 置信 度 。 分 析 发 现 与 中 英文 检测 不 同 ， 维 吾 尔 文 文本 具有 更 特殊 的 特征 ， 针 对 这 种 特性 设计 了 多 宽 高 比 和 多 尺 
寸 大 小 的 默认 框 并 调整 了 部 分 卷 积 核 的 大 小 。 经 自然 场景 中 具有 维吾尔 文 的 图 片 集 实验 表 明 ， 改 进 的 单 深 层 神 经 网 络 
方法 考虑 了 图 像 的 多 尺度 和 多 层级 征 对 检测 精度 的 影响 ， 算 法 的 准确 率 和 下 值 分 别 达 到 了 0.723 4 和 0.611 5， 提 高 了 
仿 测 的 准确 率 。 

关键 词 : 维吾尔 文 检测 ; 单 深层 神经 网 络 ; 多 尺度 特征 
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Uyghur text detection in natural scene based on improved single deep neural network 


Peng Yong!, Halidan:-Abudureyimu!, Ding Weichao? 
(1. College of Electrical Engineering Xinjiang University, Urumqi 830047, China; 2. Suzhou Research Institute, Southeast 
University, Suzhou Jiangsu 215028, China) 


Abstract: In order to overcome the difficulties of detecting the Uyghur text in natural scene images, this paper improved a single 
deep neural network to detect Uyghur text in natural scene images. The network structure combined the Uyghur feature 
extraction and the multi-layer features fusion text detection component. What was more, it predicted Uyghur text bounding box 
and the confidence score of Uyghur text in an end-to-end manner. Uyghur feature extraction component used convolutional 
neural network to extract multi-scale and multi-level Uyghur features from natural Uyghur images. The multi-layer features 
fusion text detection component made use of the features extracted by the Uyghur feature extraction component to predict the 
position of the Uyghur text bounding boxes and the confidence of the Uighur category. The analysis shows that Uyghur text had 
more special features than English and Chinese texts. For this feature, it designed a default box with multiple aspect ratios and 
adjusted multiple sizes and the size of some convolution kernels. Experiments on Uyghur natural scene images collected by 
pattern recognition and Intelligent control laboratory of electrical engineering college of Xinjiang university show that the 
improved single deep neural network method considers the influence of multi-scale and multi-level images on the detection 
accuracy and improves the detection accuracy. The accuracy and the F value of the algorithm respectively reach 0.723 4 and 
0.611 5. 
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英文 识别 技术 受到 了 广泛 的 关注 ， 但 自然 场景 中 维 看 尔 文 识别 

研究 者 甚 少 。 维 杏 尔 语 是 一 种 黏着 语 ， 句 子 以 主语 -宾语 -谓语 

文字 作为 人 类 高 层 语义 信息 中 最 直接 的 表示 形式 ， 在 图 像 ” (SOV) 的 词 序 构成 。 名 词 会 因应 数 及 语义 格 而 变化 。 名 词 有 单数 
理解 中 扮演 着 不 可 或 缺 的 角色 。 自 然 场景 中 的 文字 识别 一 直 以 和 众 数 之 分 ， 以 及 六 种 语义 格 : 主格 、 宾 格 、 与 格 、 属 格 、 离 
来 是 文字 识别 领域 一 项 非常 有 挑战 性 的 工作 。 自 然 场 景 中 的 中 ” 格 、 方 位 格 。 维 吾 尔 语 有 32 个 字母 ， 其 中 有 8 个 元 音 ，24 个 
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录用 稿 $ 5, pinas M RA AP 
音 ， 共 有 128 种 字符 形式 ， 每 一 种 字母 按 出 现 的 位 置 不 同 分 。 诸如 局 部 二 值 模式 、 梯 度 方向 直方 图 的 特征 。 但 是 这 些 方 法 一 


为 有 后 连 形式 、 前 后 连 形式 、 前 连 形式 和 独立 形式 等 四 种 ， 维 ” 般 对 于 多 朝向 和 尺寸 变化 比较 大 的 场景 图 像 鲁 棒 性 差 ， 而 且 计 
至 尔 语 单词 是 一 种 粘连 性 字符 ， 这 些 字符 的 连接 形成 连 体 段 ， 算 代价 高 。 

字母 互相 连接 的 水 平 线 叫做 基线 。 另 外 有 些 维吾尔 字母 主体 相 基于 连通 区 域 的 方法 ”主要 是 通过 边缘 检测 "、 最 大 稳定 
同 , 仅 用 以 上 、 下 点 标记 来 区 分 字符 的 不 同 帆 。 自然 场景 中 文本 。” 极 值 区 域 (MSER”” )、 颜 色 增强 对 比 度 极 大 值 区 域 等 多 种 技术 
检测 是 自然 场景 中 文字 识别 的 前 期 环节 ， 它 的 目的 是 判断 不 同 ” 提取 文本 候选 区 域 ， 然 后 使 用 特别 设计 的 规则 或 一 些 自动 训练 


M 


场景 图 像 (警示 牌 、 街 道 标志 等 是 否 存在 文本 ， 若 存在 则 定 。 ”的 分 类 器 (如 SVM) 滤 除非 文本 成 分 。 

位 文本 所 在 位 ee mE 图 像 中 维吾尔 文 检测 ，Fang 等 人 “利用 卷 积 神经 网 络 检测 
不 均匀 的 光照 、 低 的 光照 对 比 度 和 部 分 遮挡 、 多 方向 的 文本 、 ”复杂 背景 图 像 中 的 维吾尔 文 。Tursun 等 人 "采用 了 Harris fi 
拍照 时 所 造成 的 图 像 文本 透视 变形 ， 如 图 1 所 示 。 点 和 数学 形态 学 方法 产生 候选 文本 区 域 ， 根 据 启发 式 的 规则 去 
T — 除了 一 些 典型 的 非 文本 区 域 ， 并 利用 了 维吾尔 语文 本 的 基线 特 
征 对 候选 文本 区 域 进行 了 验证 。 李 敏 强 等 人 9 在 图 像 的 同 质 化 
— c i E 空间 通过 角 点 检测 快速 获得 候选 文本 区 域 后 ， 提 出 了 改进 了 局 
Fm os 部 二 值 化 模式 特征 用 于 对 维吾尔 文 候选 文字 区 域 的 分 类 确认 和 
c2 ooi gp 究 ， 该 方法 的 效果 在 一 定 程度 上 依赖 于 前 期 的 通过 角 点 检测 得 
Be EU 到 候选 区 域 的 完备 性 。 Liu 等 人 ”根据 检测 到 的 文本 的 纹理 和 
二 -二 = 一 边缘 特征 建立 了 一 种 基线 结构 特征 ， 但 该 方法 容易 因为 自然 场 
图 1 自然 场景 中 的 维吾尔 文 检测 难度 大 的 图 像 景 图 像 复 杂 的 背景 和 一 些 未 知 的 噪声 影响 文本 二 值 化 ， 使 得 基 

上 述 所 说 的 难点 是 自然 场景 中 文字 检测 所 面临 的 共同 难 ”” 线 特征 的 提取 效果 不 好 ， 致 使 检测 精度 下 降 。 


点 。 自 然 场景 中 维 噩 尔 文 检测 的 难点 还 在 于 与 其 他 语言 相 
比 ， 维 吾 尔 文字 的 形状 在 不 同 的 拼写 方式 上 有 所 不 同 ， 而 且 

一 个 词 中 的 字符 经 常 粘 合 在 一 起 ， 这 就 意味 着 维吾尔 文字 在 本 文 设 计 的 自然 场景 中 维吾尔 文 检测 系统 的 整体 框架 如 图 
文字 书写 上 的 差异 很 大 。 此 外 ， 经 常 在 字符 周围 使 用 不 定数 3 所 示 。 首 先 获取 自然 场景 中 的 维吾尔 文 图 像样 本 ， 并 且 对 样 
量 的 点 《〈 即 点 在 字符 上 方 、 下 方 或 内 部 ) 可 能 很 容易 被 误 认 “本 中 维吾尔 文 区 域 进 行 标注 ， 然 后 将 样本 输入 到 改进 的 单 深层 


Ar s, 
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为 是 噪声 四 。 维 香 尔 文 有 明显 区 别 于 中 英文 的 特征 就 是 维 吾 。 ”神经 网 络 的 特征 提取 组 件 提取 原始 图 片 的 特征 ， 再 将 提取 的 特 

尔 文 的 基线 特征 ， 如 图 2 所 示 。 征 输入 到 多 层 特征 融合 检测 模块 ， 进 行 维吾尔 文 是 否 存在 的 判 
FT T 1111 别 和 定位 。 
Softmax 层 
多 层 特征 
图 2 维吾尔 文 的 基线 特征 RJ | Bax em 

本 文 主要 研究 单 深层 神经 网 络 方法 检测 自然 场景 中 维吾尔 o 
3c, 贡献 有 以 下 两 点 

a) 改 进 了 单 深层 神经 网 络 结构 用 于 提取 自然 场景 维吾尔 文 
的 多 层级 和 多 尺度 的 特征 。 E c uEE NL li 

b) 针对 自然 场景 中 维吾尔 文 文本 行 的 特性 , 设计 了 多 尺度 | 
大 小 ， 多 宽 高 比 的 默认 框 并 调整 了 部 分 卷 积 核 的 大 小 以 适应 自 "m "T. 
然 场景 中 维吾尔 文 检测 的 需要 。 了 入 中 的 维尔 文 图 像 | ^ 式 的 图像 所 全 ^ PEERI 
相关 工作 图 3 然 场 景 中 维吾尔 文 检测 系统 整体 框架 图 

为 了 解决 上 述 因素 对 自然 场景 中 的 文本 检测 所 造成 的 困难 ， 本 文 所 采用 的 神经 网 络 结构 ; 
众多 学 者 做 出 了 大 量 的 工作 ， 大 致 可 以 分 为 以 下 几 类 : 基于 纹 选择 该 网 络 架构 的 原因 主要 有 以 下 两 方面 的 考虑 ; 
音 的 方法 、 基 于 连通 区 域 的 方法 以 及 这 两 种 方法 的 融合 .颜色 、 a) 本 文 所 采用 的 架构 的 层次 必须 有 合适 的 深度 使 其 能 够 有 
边缘 、 笔 画 和 局 部 二 值 模式 ， 角 点 、 梯 度 方向 直方 图 是 典型 的 “，” 效 地 提取 多 层级 水 平 的 特征 图 谱 
被 使 用 的 特征 。 b) 能 够 有 效 地 提取 维吾尔 文 的 基线 特征 或 者 其 他 的 维吾尔 


基于 纹理 的 方法 一 般 是 考虑 到 图 片 中 文本 的 纹理 特征 。 文 的 本 质 特 征 ， 适 应 维吾尔 文 文本 行 的 特点 。 
显著 得 区 别 于 它 的 背景 信息 。 研 究 者 使 用 滑动 窗口 的 方法 提取 本 文 借鉴 了 在 英文 检测 取得 了 较 好 效果 的 TextBoxes ^ 
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录用 稿 


中 的 单 深层 神 


设计 了 候选 框 的 长 宽 比 ， 并 调整 了 部 分 卷 积 核 的 大 小 以 适应 维 


经 网 络 结构 ， 并 增加 了 一 层 文本 框 层 ， 同 时 重新 
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5o 5, 等: 基于 改进 单 深层 神经 网 络 的 A» 


合作 期刊 


T 


的 个 数 ， 根 据 图 像 中 


S nin =0.2 5S max 20.95 ,m: 代 表 特 征 图 谱 


看 尔 文 文本 行 检测 的 需要 。 

本 文 所 设计 改进 的 单 深层 神经 网 络 算法 ， 它 采用 基于 特征 
金字 塔 检测 的 方式 将 不 同 卷 积 层 的 特征 图 谱 进 行 综合 然后 分 别 
检测 ， 最 后 通过 非 极 大 值 抑制 算法 将 结果 综合 ， 直 接 预 测 目标 
类 别 和 边界 框 。 

网 络 结构 总 体 架构 如 图 4 所 示 。 

(— E 
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1 : | ; 


1024 1024 512 256 256 256 256 48 


图 4 


piu: 


的 单 深层 神经 网 络 结构 图 


如 图 4 所 示 ， 此 神经 


成 。 前 13 / 


是 使 | 


络 是 在 VGG-16 层 后 ， 文 本 框 


特征 图 谱 定 位 


/中 ， 


本 网 络 架构 继承 了 VGG-16 7 
conv5 3 的 网 络 层 数 ， 同 时 将 VGG-16 的 网 
的 方式 转变 为 了 conv6、 
在 conv8 2 后 添加 了 conv8 _ 3, 在 conv8 3 后 紧 接 着 6 个 不 同 卷 
层 被 分 为 三 个 部 分 : conv9-convll. 

多 层 特征 融合 的 检测 组 件 是 改进 的 单 深层 


组 成 部 分 ， 它 以 输入 特征 图 为 条 件 ， 同 时 预测 维 寿 


积 


USAT R 


本 存在 的 得 分 和 5 个 默认 
抑制 融合 所 有 文本 框 的 


i VGG-16 的 网 络 层 ， 另 外 11 AER 
层 连 接 到 6 个 卷 积 层 。 在 每 一 个 
个 文本 框 层 预测 


ER 


输出 。 


网 络 架 构 由 28 个 全 卷 积 神经 网 


30 维 向 量 ， 


该 向 量 


LJ 


网 络 结构 分 为 特征 提取 组 件 


络 组 
经 网 


为 文 


， 在 最 后 阶段 使 用 非 极 大 值 


和 多 层 特征 融合 的 文本 检测 组 


架构 ， 保 留 了 convl ] 到 卷 积 


络 的 后 两 个 全 连接 
conv7 这 两 个 卷 积 层 ， 


经 网 络 的 关键 


在 和 维 


本 文 使 ) 
convll 2 $&H 


JE, 


BORGO 
职 的 方式 输出 分 类 的 得 分 和 其 相关 
1A conv4 3、 
区 的 特征 ， 在 各 层 的 特征 
默认 框 会 映射 回 原 图 


匡 的 位 置 。 


在 每 一 个 图 谱 的 定位 阶 
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KLÆR 


它 以 


COnV7、 


其 的 默认 框 的 位 


LITE EE 


conv8 2, conv9 2, co 


腿 设 卷 积 特 生 


E 图 的 


4j 5SXWXH 


《默认 框 
尺寸 大 小 为 WXH, 那 么 该 层 产 4 


个 ， 如 图 


5 所 示 。 


nv10 2, 
图 上 产生 5 种 比例 的 默认 
FP 心 点 的 位 置 乘 以 steps). 

E 的 默认 框 


横 纵 比 的 维 


输出 特征 图 谱 
卷 积 核 的 设计 产生 
吾 尔 文 。 


同时 对 这 6 种 不 同 的 卷 积 


EI 


分 别 ) 


的 矩形 感受 野 ， 


成 2 个 类 别 


(维吾尔 文 


确定 默认 框 的 中 心 


个 输出 分 类 / 
JU 
置 ， 每 个 默认 框 生 成 4 


十 


JR] 
信 度 ;一 个 输出 


LH 


j 两 个 不 同 的 3x5 的 卷 积 核 进行 卷 积 ， 这 种 
它 可 以 更 好 地 拟 合 具 有 更 大 
置信 度 ， 每 个 默认 框 生 
归 用 的 位 


坐标 ， 


Smax 


BERIE Cx, y, w, ID 
尺寸 大 小 和 宽 高 比例 : 


scale, = s, 


m D,kell, m] 


a) 


维吾尔 文 文本 行 的 特点 ， 使 用 不 同 的 宽 高 比例 ， 
a €(L53,5,0.3330.2)  , E HE (w=scale,xVa) ,高 度 
i*0.6 j40.7 


C (h= scale, 1 a) ), 每 一 个 默认 框 的 中 心 坐 标 设置 为 


FAITS 


中 | 是 第 k 个 特征 图 谱 的 大 小 ,同时 je[0,|f: 上 ]。 对 于 每 个 特 


征 图 谱 单 元 共有 5 种 默认 框 ， 这 种 默认 框 在 不 同 的 特征 
不 同 的 尺寸 ， 在 同一 特征 图 上 拥有 不 同 的 长 宽 比 ， 因 此 
盖 输 入 图 像 中 的 绝 大 部 分 斥 寸 大 小 的 维吾尔 文 文本 。 


层 上 有 
HJ DAE 


图 5 特征 图 上 产生 默认 框 
假设 图 像 的 大 小 为 ( w n, D 特征 图 谱 的 大 小 为 (w,, > e 
E 每 一 图 谱 定 位 G, j) 它 相 关联 的 一 个 默认 框 (c,, e, Wo hu) ,多 
特征 融合 的 文本 检测 组 件 预 测 值 ( Ax,Ay,Aw,Ah,Ac )， 表 示 边 
fx b (x, y, w,h) 以 置信 和 度 C 被 检测 到 ， 这 里 


B 


l 


ERA 
IHI 


X = C+WoAX 


y= C, +hay 


Q) 
w = w, *exp(Aw) 
h = h * exp(AR) 
单 深层 神经 网 络 训练 的 目标 函数 由 定位 损失 函数 和 置信 度 
损失 函数 组 成 。 
loss(x,c,l ey x oss, o 6 0) + aloss,, (x, L, 8) 3) 
其 中 : 定位 损失 函数 为 
loss， (zc) = x $ x; smoothL1(7 — £2) (4) 
ie pos, mele, , ^y ,wo ,ho} 
E 6) 
g, =(8? p) © 
g, - log, (EŻ D 
a ho g^ 
gj = log C) (8) 


置信 度 损 失 函 数 为 
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^ 
` ] ©) 
RS p PY p o 
loss,,, T pnm Xj log, c; ) p log, (c; ) 


说 明 : 


Cr = exp(c!) 


Xen e 


loss, 代表 置信 度 损失 ， 是 soft max 损失 ,输入 为 每 


个 类 的 置信 和 度 C 


loss, 代表 定位 损失 ，loss 代 表 总 的 损失 ，N 代表 代表 匹配 


的 默认 框 数 
设 


目 ,g 代 表 ground-truth 框 的 参数 ,a 代表 平衡 
为 1，! 代 表 预 测 的 框 ，d 代表 默认 框 ，c,, ce， 代表 默认 框 


天 


子 ， 


的 中 心 坐标 ，w 代表 默认 框 的 宽度 ，h, 代表 默认 框 的 高 度 。 
xf 二 1 表示 第 i 个 默认 框 与 类 别 P 的 第 了 个 ground. truth 


相 


EIS 
H IK 


区 域 )。 


匹配 ， 如 果 不 匹配 则 当 =0， 其 实 只 有 两 个 类 别 〈 维 吾 尔 文 ， 


对 于 同比 例 汉 字 或 英文 字母 ， 如 何 区 分 ? 本 文 使 用 了 样本 


匹配 策略 。 首 先 需 要 将 
来 组 成 标签 。 这 里 根据 
行 匹 配 ， 只 要 两 者 之 间 
配对 。 这 里 的 阔 值 设 为 
本 。 因 对 图 像 中 的 维 吾 
注 ， 所 以 图 像 中 的 给 


吾 尔 文 文本 区 域 会 被 当 作 正 样本 ， 同 时 


ground-truth 框 与 默认 框 进行 配对 ， 用 
ground-truth 框 与 默认 框 的 重 考 率 来 进 
重 炙 率 大 于 一 个 给 定 的 立 值 ， 则 将 两 者 
0.6。 当 闵 值 大 于 0.6 时 ， 会 被 当做 正 样 
尔 文 文本 区 域 进行 了 Ground-truth 框 标 


习 像 中 的 中 英文 


难 的 负 样 本 挖掘 ; 


后 , 需要 控制 产生 的 负 样 本 和 正 样本 的 比例 , 以 便于 更 快 优 
更 稳定 训练 。 本 方法 采取 先 将 每 一 行 维 


应 的 预测 框 〈 默 认 框 ) 


区 域 没有 标注 ， 所 以 中 英文 


区 域 会 被 当做 负 


在 将 ground-truth 框 与 默认 框 进行 匹配 
化 ， 
吾 尔 文 文本 行 的 位 置 对 
是 负 框 的 进行 排序 ， 按 照 默 认 框 的 置信 


度 排序 ， 选 择 最 高 的 几 个 ， 同 时 保证 负 样 本 : 正 样 本 =3:1。 
训练 过 程 : 训练 时 训练 数据 被 统一 为 350*500 像素 大 小 ， 


随机 水 平 翻转 。 使 用 
衰减 取 0.0005, 动量 取 
次 减少 为 原来 的 0.1。 


随机 梯度 下 降 (SGD) 训 练 ， 训 练 的 权 值 
0.9, 学 习 率 初始 值 取 0.01, 之 后 每 4 万 


数据 增强 : 将 原始 图 像 进行 不 同 程度 颜 


色 变换 和 对 比 度 变 


化 ， 或 者 添加 四 种 不 同比 例 的 高 斯 噪声 。 
3 ”实验 与 分 析 
本 文 将 自然 场景 中 的 维吾尔 文 检测 问题 转换 为 二 分 类 《〈 维 


吾 尔 文 和 背景 ) 问题 与 边框 世 


技术 ， 采 用 VOC2007 
本 文 实验 平台 说 明 
8 GB 内存, CPU 为 Inte 


归 问 题 , 训练 策略 采用 fine-tuning 
数据 集 格式 。 

: Ubuntu16.04 系统 ， 使 用 Caffe 框架 ， 
1i7 处 理 器 , GPU 为 NVIDIA 的 GeForce 


GTX1080,8 BG 显存 。 


本 章 通 过 可 视 化 改进 的 单 深层 神经 网 络 
学 习 到 的 特征 ， 说 明 计 算 机 是 如 何 确定 维吾尔 文 区域 。 同 时 主 


要 讨论 两 方面 内 容 : 一 是 单 深层 神经 网 络 结构 对 检测 性 能 的 影 


响 ， 二 是 改进 的 单 深 / 


3.1 


在 


目标 检测 中 常 / 


神经 网 络 方法 与 其 他 方法 的 比较 。 


实验 数据 集 和 评价 指标 
的 评价 指标 有 以 下 几 类 ; 
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£o 勇 ， 等 : 基于 改进 单 深层 神经 网 络 的 自 


ARX HER RR 


准确 率 = 正确 检测 到 的 文本 框 数 
总 共 检 测 到 的 文本 框 数 
z 正确 检测 到 的 文本 框 数目 
"jg e 
数据 集 总 共 的 文本 框 的 数目 
F 值 =2x 准确 率 x 召 回 率 


准确 率 + 召回 率 


KLK 


于 缺乏 公开 且 标注 好 的 自 


然 场 景 中 维 


尔 文 图 像 数据 身 


Yir 


用 的 


自然 场景 中 维 


工程 学 院 模式 识别 与 智能 控制 研 
际 采集 而 来 ， 其 中 有 一 小 部 分 加 
像 包括 了 广告 牌 、 招 牌 、 路 标 告示 、 宣 传 栏 等 场景 文本 图 像 。 
像 尺 寸 大 小 各 有 差异 ， 图 像 中 的 
看 尔 文 混杂 着 小 部 分 中 文 和 极 小 部 分 的 英文 


大 部 分 文本 都 是 给 


于 拍摄 角度 和 距离 原因 ， 图 


吾 尔 文 图 像 数 据 集 


新 疆 大 学 电气 


究 室 从 新 疆 乌鲁木齐 市 街景 实 


像 是 从 网 上 下 载 而 来 。 


文本 图 


与 阿拉 人 1 


数字 。 


这 些 文本 的 尺寸 、 颜 色 和 大 小 各 不 相同 ， 而 且 


分 布 在 图 像 中 的 不 同位 置 。 
片 ， 所 以 本 实验 把 
练 出 合适 的 模 
居 集 构造 分 布 合 理 
| 练 样本 和 110 张 测 
训练 样本 中 的 部 分 数据 做 了 数据 扩充 ， 
片 。 本 数据 自 
E。 即 对 每 张 图 像 中 的 维 


的 图 
fe VI 


同时 为 了 确保 数 
地 分 为 550 5K} 


随机 


强 的 图 


本 区 域 做 了 标注 
前 标注 出 来 ， 以 方便 最 后 模型 的 评测 。 


xp ma 


EB OBI 


单 深 


型 ， 需 要 构造 j 


恨 神 经 网 络 需要 输入 统一 大 小 
图 片 都 统一 为 350*500 的 尺寸 。 为 了 能 
| 练 样本 集 和 测试 的 样本 集 ; 


本 实验 将 原始 


图 像 660 张 ， 


试 


本， 并 且 对 550 张 


得 至 


中 所 有 的 图 


YT 


像 都 用 


表 1 训练 样本 与 


i 


Label-Image T. 
者 尔 文 文本 坐标 都 被 提 
本 文 实验 制作 的 
居 集 包括 4590 张 /JPG,Labels:4 590 个 XML。 
训练 样本 与 测试 样本 和 集 说 明 女 


了 3 930 张 数据 增 
XX 


然 场 


IR 1 所 示 。 
试 样本 集 说 明 


图 片 


尺寸 


数量 


550 张 


训练 样本 350*500 


测试 样本 350*500 


11 


DzP Ay 


图 片 和 3930 张 数据 


增强 得 到 有 


HRIH 


0 5K Ej 


然 场 景 中 的 


m 


部 分 训练 样本 和 测试 样本 分 


TT TULBLLU 


Z] 


别 如 


6. 


7 所 示 。 


TÉ 


(b 数据 增强 得 至 
图 6 部 分 训 


的 部 分 训 
练 样本 图 片 


FT) 


m 


练 图 片 
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图 7 自然 场景 中 维吾尔 文 图 片 测 试 样本 部 分 示例 图 片 
3.2 特征 提取 


CNN 在 图 像 的 目标 检测 中 具有 位 移 不 变性 、 缩 放 不 变性 
及 其 他 形式 的 扭曲 不 变性 。 由 于 CNN 的 特征 检测 层 通 过 训练 
数据 进行 学 习 ， 不 需要 进行 特征 的 设计 和 抽取 ， 自 动 训练 学 习 Conv2 2 Conv3 1 Conv3 2 Conv3 3 
抽取 特征 。 本 节 通 过 可 视 化 一 些 网 络 层 学 习 提取 到 的 特征 ， 说 (b):conv2_2~conv3_3 卷 积 层 的 特征 图 
明 改 进 的 单 深 层 神 经 网 络 检测 自然 场景 中 的 维吾尔 文 的 中 间 过 到 9 部 分 卷 积 层 的 特征 图 
Eo Weights: num64 Waightsnuml28 Weights: Num 256 NS Num: s2 Weighis Num: 512 
某 测试 图 片 如 图 8 所 示 。 图 9 中 给 出 了 检测 识别 某 测试 图 


片 过 程 中 的 部 分 卷 积 层 的 特征 图 。 am po 
从 图 中 可 以 看 出 ， 不 同 卷 积 层 提 取 的 图 像 的 特征 尺度 不 一 

样 。Convl 1. convl 2. conv2 1、conv2 2 学 习 到 的 是 一 些 基 

本 特征 例如 颜色 、 边 缘 等 底层 特征 。 底 层 提取 的 是 图 像 的 浅 层 amy y e e mue 


的 全 局 的 特征 ， 上 层 提取 的 是 图 像 高 层 的 局 部 特征 。 10 ” 卷 积 核 提 取 的 特征 


cr 


78 


改进 的 单 深 层 神经 网 络 的 卷 积 核 是 从 训练 数据 中 学 习 得 到 3.3 结果 分 析 
图 10 为 本 文 训练 后 得 到 的 部 分 层 所 使 用 的 卷 积 核 。 训练 结果 如 表 2 所 示 。 
3&2 训练 过 程 中 平均 检测 精度 随和 迭代 次 数 的 变化 
迭代 次 数 平均 检测 精度 
5000 0.2903 
10000 0.5420 
15000 0.5304 
20000 0.5225 
25000 0.5311 
30000 0.5500 
35000 0.5789 
图 8 测试 图 片 40000 0.5208 
45000 0.5716 
50000 0.5508 
55000 0.5280 
60000 0.5704 


从 表 2 可 知 ， 随 着 训练 迭代 次 数 的 增加 ， 算 法 的 平均 检测 
精度 总 体 是 呈 上 升 趋势 ， 最 高 的 平均 检测 精度 在 0.57 左右 。 
单 深层 网 络 结构 使 用 了 不 同 特征 图 谱 的 网 络 层 作 维吾尔 文 
文本 框 预测 时 性 能 对 比 , 如 表 3 所 示 ( 此 时 交 并 比 (IOU )=0.5 )。 
RI 单 深层 神经 不 同 网 络 结构 的 性 能 对 比 
做 文本 框 预测 时 所 使 用 的 特征 图 网 络 结 网络 结 ”网络 结 ”网络 结 


H 


谱 网 络 层 构 1 H2 H3 H4 
l Conv4 3 y 4 V 
Convl 1 Convl 2 Conv2 1 
Conv5 3 4 J 


(a):convl_1~conv2_1 卷 积 层 的 特征 图 Conv7 4 4 y y 
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Conv8 2 4 4 4 4 
Conv9 2 4 v 4 4 
Conv10 2 4 v 4 v 
Convll 2 4 
Pool6 v y 4 


网 络 结 网络 结 ”网 络 结 ”网 络 结 
Wl 2 3 构 4 


Sá 

4 
E: 
ER 
n 
3t 


佳 确 度 0.4241 0.5395 0.6186 0.7234 
召回 率 0.3873 0.4205 0.3175 0.5247 
F {Ë 0.4241 0.4726 0.4196 0.6115 


从 表 3 可 知 , 添加 了 卷 积 层 conv1l 2 后 提取 的 特征 对 于 后 
面 的 维吾尔 文 文本 框 的 预测 有 比较 好 的 提升 效果 。 这 主要 是 因 
为 增加 了 多 层级 和 多 尺度 的 特征 用 于 后 期 的 维吾尔 文 文本 框 的 
预测 ， 同 时 设计 了 合适 的 多 宽 高 比 和 多 尺度 的 默认 村 调整 
了 部 分 卷 积 核 的 大 小 以 适合 自然 场景 中 维吾尔 文 图 像 文本 行 的 
特点 。 

为 了 进一步 验证 算法 的 有 效 性 
测试 ， 作 算法 性 和 


[HI 


将 不 同方 法 在 数据 集 进 行 
对 比 ， 如 表 4 所 示 。 


CC 


表 4 不 同方 法 在 我 们 数据 集 的 测试 性 能 对 比 
. 交 并 比 阔 值 =0.5 交 并 比 阔 值 =0.6 
方法 
召回 率 EMX F 值 ”召回 率 准确 率 FH 
Faster- 
0.6471 0.3659 0.4660 0.5882 0.3354 04272 
RCNN[16] 
TextBoxes[15] 0.4205 0.5395 0.4726 0.3385 0.4342 0.3804 
本 文 算 法 0.5247 0.7234 0.6115 0.4753 0.6754 0.5580 


LH 


从 表 4 可 知 ， 本 文 算法 在 数据 集 上 测试 ， 虽 然 召回 率 低 于 
Faster-RCNN, 4HJé F 值 和 准确 率 均 高 于 Faster-RCNN 和 Text 
Boxes 方法 ， 而 且 交 并 比 阔 值 为 0.5 的 结果 优 于 交 并 比 阔 值 为 
0.6 时 的 结果 。 综 合 几 个 评估 标准 ， 本 文 算法 具有 较 好 的 性 能 。 

成 功 检 测 到 的 带 有 维吾尔 文 的 图 片 部 分 结果 展示 如 图 11 
所 示 。 


eoo de ds yedss, 2 
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图 11 成 功 检测 到 的 带 有 维吾尔 文 的 图 片 部 分 结果 展示 


本 文 改进 了 单 深 层 神经 网 络 检测 自然 场景 中 的 维吾尔 文 
实验 表明 改进 的 单 深层 网 络 较 好 地 考虑 了 图 像 的 多 尺度 、 多 层 
级 特征 对 维吾尔 文 检测 准确 率 的 影响 ， 提 高 了 检测 的 准确 度 。 
今后 改善 的 侧重 点 为 以 下 两 个 方面 : 一 是 针对 自然 场景 中 维 寿 
尔 文 的 特点 提出 多 边 形 边框 回归 的 算法 ， 以 减少 因为 文字 多 方 
向 的 问题 ， 造 成 直接 使 用 矩形 边框 回归 导致 的 检测 的 准确 率 不 


E 


[HI 


H 
n 
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会 作 期 于 


XIVE Th 


高 ;二 是 如 何 将 传统 特征 与 深层 神经 网 络 提取 的 特征 融合 ， 用 
于 自然 场景 中 的 维吾尔 文 检 测 中 
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